Towards an automatic identification of chiasmus of words (Vers une identification automatique du chiasme de mots) [in French]
نویسنده
چکیده
RÉSUMÉ Cette recherche porte sur le chiasme de mots : figure de style jouant sur la réversion (ex. « Bonnet blanc, blanc bonnet »). Elle place le chiasme dans la problématique de sa reconnaissance automatique : qu’est-ce qui le définit et comment un ordinateur peut le trouver ? Nous apportons une description formelle du phénomène. Puis nous procédons à la constitution d’une liste d’exemples contextualisés qui nous sert au test des hypothèses. Nous montrons ainsi que l’ajout de contraintes formelles (contrôle de la ponctuation et omission des mots vides) pénalise très peu le rappel et augmente significativement la précision de la détection. Nous montrons aussi que la lemmatisation occasionne peu d’erreurs pour le travail d’extraction mais qu’il n’en est pas de même pour la racinisation. Enfin nous mettons en évidence que l’utilisation d’un thésaurus apporte quelques résultats pertinents.
منابع مشابه
Vers une annotation automatique de corpus audio pour la synthèse de parole (Towards Fully Automatic Annotation of Audio Books for Text-To-Speech (TTS) Synthesis) [in French]
RÉSUMÉ La construction de corpus de parole est une étape cruciale pour tout système de synthèse de la parole à partir du texte. L’usage de modèles statistiques nécessite aujourd’hui l’utilisation de corpus de très grande taille qui doivent être enregistrés, transcrits, annotés et segmentés afin d’être exploitables. La variété des corpus nécessaire aux applications actuelles (contenu, style, etc...
متن کاملStudy of Domain Dependant Multi-Polarity Words for Document Level Opinion Mining (Influence des marqueurs multi-polaires dépendant du domaine pour la fouille d'opinion au niveau du texte) [in French]
Résumé. Les méthodes de détection automatique de l’opinion dans des textes s’appuient sur l’association d’une polarité d’opinion aux mots des textes, par lexique ou par apprentissage. Or, certains mots ont des polarités qui peuvent varier selon le domaine thématique du texte. Nous proposons dans cet article une étude des mots ou groupes de mots marqueurs d’opinion au niveau du texte et qui ont ...
متن کاملIdentification of Arabic/French Handwritten/Printed Words using GMM-Based System
The discrimination between languages is one of the first steps in the problem of automatic documents text recognition. In many documents, such as bank checks and application forms, printed and handwritten texts are mixed. In this paper, an automatic identification system of Arabic and French words in both handwritten and printed script based on Gaussian Mixture Models (GMMs) was presented. A fi...
متن کاملAutomatic identification of document sections for designing a French clinical corpus (Identification automatique de zones dans des documents pour la constitution d'un corpus médical en français) [in French]
Résumé. De nombreuses informations cliniques sont contenues dans le texte des dossiers électroniques de patients et ne sont pas directement accessibles à des fins de traitement automatique. Pour pallier cela, nous préparons un large corpus annoté de documents cliniques. Une première étape de ce travail consiste à séparer le contenu médical des documents et les informations administratives conte...
متن کاملForeign and regional accents in French. Characterisation and identification
This research focuses on the identification and characterisation of accents in French. For both foreign and regional accents, we started with perceptual identification experiments, we measured phonetic features which may characterise these accents using automatic phoneme alignment, and we ranked the most discriminating features by using classification techniques. The following features are perc...
متن کامل